Связи и зависимости между переменными
Основной целью при оценке результатов маркетингового исследования является нахождение зависимостей между переменными, определение каких-либо новых взаимосвязей. Статистические методы помогают в поиске таких зависимостей, позволяют их математически оценить. В математической статистике выделяют две основные черты каждой зависимости:
1. Величина. Величину зависимости легче понять и измерить, чем надежность. Например, если по результатам опроса оказалось, что большинство мужчин имеет доход выше среднего, а большинство женщин - ниже среднего, исследователь может сделать вывод, что зависимость между двумя переменными (ПОЛ и УРОВЕНЬ ДОХОДА) высокая.
2. Надежность ("истинность"). Надежность взаимозависимости - менее наглядное понятие, чем величина зависимости, но чрезвычайно важное. Надежность зависимости непосредственно связана с репрезентативностью (представительностью) выборки, на основе которой строятся выводы. Надежность показывает, насколько вероятно, что зависимость, подобная найденной, подтвердится на данных другой выборки, извлеченной из той же самой генеральной совокупности. Как правило, при проведении исследований конечной целью почти никогда не является изучение какой-либо конкретной выборки; исследователя интересуют данные о всей генеральной совокупности (например, о всех потребителях). Если исследование удовлетворяет определенным критериям, то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой p-уровень или статистический уровень значимости).
Статистический уровень значимости представляет собой оцененную меру уверенности в том, что полученные результаты "истинны" для всей генеральной совокупности (т.е. исследуемая выборка репрезентативна). В терминах математической статистики p-уровень - это показатель, находящийся в убывающей зависимости от надежности результата: более высокий p-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность. Например, p - уровень, равный 0,05 показывает, что имеется 5%-ная вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. В маркетинговых исследованиях p-уровень 0,05 часто рассматривается как "приемлемая граница" уровня ошибки.
Необходимо отметить, что выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике обычно уровень 0,05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень означает довольно большую вероятность ошибки (5%). Результаты с уровнем значимости 0,01 обычно рассматриваются как статистически значимые, а результаты с уровнем 0,005 или 0,001 как высоко значимые. При этом данная классификация уровней значимости абсолютно произвольна и основана лишь на результатах практического опыта в той или иной области исследований.
Важным вопросом при проведении исследований является величина выборки. Объективно понятно, что размеры выборки связаны с величиной зависимости между переменными: если связь между переменными слабая, то для проверки существования зависимости необходимо исследовать выборку достаточно большого объема. Соответственно, если зависимость "объективно" (в генеральной совокупности) очень сильная, тогда она может быть обнаружена с высокой степенью значимости даже на маленькой выборке. На практике при проведении, например, опросов потребителей, ограничиваются размерами выборки в 1000 - 1500 чел., считая такую выборку достаточно значимой. При проведении анализа результатов опроса потребителей используются ряд статистических критериев (которые будут рассмотрены ниже в данной главе) для подтверждения того, что полученные на такой выборке результаты можно распространить на всю генеральную совокупность.
В математической статистике существует много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д. Большинство этих мер, тем не менее, подчиняются общему принципу: они пытаются оценить наблюдаемую зависимость, сравнивая ее с "максимальной возможной зависимостью" между рассматриваемыми переменными. Обычный способ выполнить такие оценки заключается в том, чтобы посмотреть как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием "общей" ("совместной") вариации двух (или более) переменных. Иначе говоря, сравнивается то "что есть общего в этих переменных", с тем "что потенциально было бы у них общего, если бы переменные были абсолютно зависимы". Так как конечная цель большинства статистических критериев состоит в оценивании зависимости между переменными, большинство из них основано на этом общем принципе. В терминах математической статистики, эти критерии представляют собой отношение изменчивости, общей для рассматриваемых переменных, к полной изменчивости. Это отношение обычно называется отношением объясненной вариации к полной вариации (термин "объясненная вариация" не обязательно означает, что ей дается какое-либо теоретическое объяснение - он используется только для обозначения общей вариации рассматриваемых переменных, т.е. для указания на то, что часть вариации одной переменной "объясняется" определенными значениями другой переменной и наоборот).
В математической статистике используются функции, позволяющие вычислить уровень значимости, и, следовательно, вероятность ошибочно отклонить предположение об отсутствии зависимости в генеральной совокупности. Такая "альтернативная" гипотеза (т.е. утверждение о том, что в генеральной совокупности нет зависимости между переменными) обычно называется нулевой гипотезой. Эти функции можно использовать для определения уровней значимости при исследовании различных выборок. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.
Нормальное распределение - очень важное понятие.
В большинстве случаев оно является хорошим приближением функций, упоминаемых в предыдущем абзаце. Распределение многих статистик является нормальным или может быть получено из нормального с помощью некоторых преобразований. Многие случайные величины в природе имеют нормальное распределение.
Точная форма нормального распределения (характерная "колоколообразная кривая") определяется только двумя параметрами: средним и стандартным отклонением. Характерное свойство нормального распределения состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего µ, а диапазон ±2 стандартных отклонения содержит 95% значений.
Многие статистические критерии, которые будут рассмотрены в
Рис 2.1. Пример нормального распределения.
дальнейшем, требуют нормального распределения анализируемых переменных. Строго говоря, нельзя применять тесты, основанные на предположении нормальности, к данным, не являющимся нормальными. В этом случае можно использовать альтернативные "непараметрические" тесты, не требующие нормальности распределения исследуемых переменных. Однако это часто неудобно, поскольку обычно эти критерии имеют меньшую мощность и обладают меньшей гибкостью. Как альтернативу, во многих случаях можно все же использовать тесты, основанные на предположении нормальности при достаточно большом объеме выборки.
(Проводились специальные исследования, чтобы оценить, насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениям этих предположений. Общий вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее тяжелы, чем первоначально предполагалось. Хотя эти выводы не означают, что предположения нормальности можно игнорировать, они подтверждают возможность более широкого использования на практике тестов, основанных на нормальном распределении).
Похожие рефераты: